تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین map مبتنی بر تبدیل mllr

نویسندگان

سعید شریفیان و سید محمد احدی

s. sharifian and s. m. ahadi

چکیده

روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده اند. در برخی روشها نظیر تخمین map تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر mllr که تعدادی تبدیلات عمومی بر روی خوشه های مدلها اعمال می شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می شود، اما با افزایش دادگان، کارایی به حد اشباع می رسد. در این مقاله روش جدیدی مطرح می شود که از مزایای هر دو روش فوق برای دسترسی به کیفیت بالاتر بهره می برد. در این روش مدلهایی که داده آموزشی آنها موجود است به کمک تخمین map آموزش می بینند و برای مدلهایی که داده آموزشی (کافی) ندارند، با استفاده از روش mllr مقادیر پیشینه مناسب برای تخمین map تأمین می شود. این روش، در عمل، بر روی یک سیستم آموزش دیده براساس دادگان فارس دات به نتایج بهتری نسبت به هر یک از دو روش map و mllr دست یافته است.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

متن کامل

استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاد...

15 صفحه اول

شبکه عصبی پیچشی با پنجره‌های قابل تطبیق برای بازشناسی گفتار

Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...

متن کامل

بازشناسی گوینده مستقل از متن براساس گفتار تلفنی توسط شبکه های عصبی

در این پایان نامه سیستمی به منظور بازشناسی هویت گوینده مستقل از متن براساس گفتار تلفنی و به کمک شبکه های عصبی طراحی و پیاده سازی شده است . جهت این کار از دو دادگان گفتار زبان فارسی farsdat و tfarsdat استفاده شده است .

15 صفحه اول

مقاوم سازی سیستم بازشناسی گفتار پیوسته

دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
روش های عددی در مهندسی (استقلال)

جلد ۲۳، شماره ۲، صفحات ۳۹-۵۰

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023